本文介绍了概率推论(PD)作为概率结构性论证的一种方法。 PD框架由概率规则(P-Rules)组成。作为经典结构化论证框架的规则,P规则形成了扣除系统。此外,P规则还代表了定义关节概率分布的条件概率。使用PD框架,通过解决规则 - 稳定性的满意度来执行概率推理。同时,人们可以通过争论和攻击获得概率推理的论点阅读。在这项工作中,我们介绍了封闭世界假设(P-CWA)的概率版本,并证明我们的概率方法与P-CWA下经典论证的完整扩展和最大的熵推理相吻合。我们提出了几种方法来计算P规则的联合概率分布,以实现PD实用的证明理论。 PD提供了一个框架,可以用论证推理统一概率推理。这是概率结构化论证中的第一项工作,其中未假定联合分布形成外部来源。
translated by 谷歌翻译
可解释的人工智能(XAI)是人工智能(AI)的子领域,这是AI研究的最前沿。在XAI特征归因方法中以特征重要性的形式产生解释。对现有特征归因方法的限制是对干预后果缺乏解释。尽管突出显示对某种预测的贡献,但没有解决特征与干预后果之间的影响。本文的目的是介绍一个新的框架,可以使用图表表示更深入了解特征与功能交互,以提高黑盒机器学习(ML)模型的可解释性并提供信息。
translated by 谷歌翻译
与多标签学习相反,标签分布学习通过标签分布来表征示例的多义,以代表更丰富的语义。在标签分布的学习过程中,培训数据主要是通过手动注释或标签增强算法来生成标签分布的。不幸的是,手动注释任务的复杂性或标签增强算法的不准确性导致标签分布训练集中的噪声和不确定性。为了减轻此问题,我们在标签分布学习框架中介绍了隐式分布,以表征每个标签值的不确定性。具体而言,我们使用深层隐式表示学习来构建具有高斯先前约束的标签分布矩阵,其中每个行组件对应于每个标签值的分布估计,并且该行组件受到先验的高斯分布来限制以调节噪声和不确定性标签分布数据集的干扰。最后,通过使用自我注意力算法将标签分布矩阵的每个行分量转换为标准标签分布形式。此外,在训练阶段进行了一些具有正则化特征的方法,以提高模型的性能。
translated by 谷歌翻译
基于深度学习的计算机辅助诊断(CAD)在学术研究和临床应用中引起了吸引人的关注。然而,卷积神经网络(CNN)诊断系统严重依赖于标记的病变数据集,对数据分布变化的敏感性也限制了CNN在CAD中的潜在应用。开发了无监督的域适应性(UDA)方法来解决昂贵的注释和域间隙问题,并在医学图像分析中取得了巨大的成功。然而,现有的UDA方法仅适应从源病变域中汲取的知识到一个单个目标病变域,这是针对临床情况的:要诊断的新的未标记的目标域始终以在线和连续的方式到达。此外,由于新知识的知识覆盖了先前学到的知识(即灾难性的遗忘),因此现有方法的性能在先前学到的目标病变域上大大降低。为了处理上述问题,我们开发了一个名为连续病变知识元适应(CLKM)的元适应框架,该框架主要由语义适应阶段(​​SAP)和表示适应阶段(​​RAP)组成,以在线学习诊断模型和连续的方式。在SAP中,从源病变域中学到的语义知识转移到连续的靶病变域。在RAP中,优化了功能提取器以对齐整个源和多个目标病变域的可转移表示知识。
translated by 谷歌翻译
当前,基于变压器的算法正在在图像脱张的域中引起飞溅。它们的成就取决于CNN茎的自我发挥机制,以模拟令牌之间的长距离依赖性。不幸的是,这种令人愉悦的管道引入了较高的计算复杂性,因此很难实时在单个GPU上运行超高定义图像。为了取消准确性和效率,在没有自我注意力的机制的情况下,在三维($ c $,$ w $和$ h $)信号的三维($ c $,$ w $和$ h $)信号上周期性计算的输入降级图像进行了计算。我们将此深层网络称为多尺度立方混合物,在快速傅立叶变换后,它在真实和虚构的组件上都作用,以估计傅立叶系数,从而获得脱毛的图像。此外,我们将多尺度立方混合物与切片策略相结合,以低得多的计算成本产生高质量结果。实验结果表明,所提出的算法对几个基准的最先进的脱蓝色方法和在精度和速度方面的新超高定义数据集有利。
translated by 谷歌翻译
因果情绪综合(CEE)旨在发现对话说法中情感背后的潜在原因。先前的工作将CEE正式为独立的话语对分类问题,并忽略了情感和说话者信息。从新的角度来看,本文考虑了联合框架中的CEE。我们同步对多种话语进行分类,以捕获全球观点中的话语之间的相关性,并提出一个两条注意力模型(TSAM),以有效地模拟说话者在对话历史上的情感影响。具体而言,TSAM包括三个模块:情感注意网络(EAN),说话者注意网络(SAN)和交互模块。 EAN和SAN并行结合了情感和说话者信息,随后的交互模块通过相互的Biaffine转换有效地互换了EAN和SAN之间的相关信息。广泛的实验结果表明,我们的模型实现了新的最新性能(SOTA)性能,并且表现出色的基准。
translated by 谷歌翻译
在过去的几年中,训练前模型的出现将单峰领域(例如计算机视觉(CV)和自然语言处理(NLP))带到了一个新时代。实质性的作品表明它们对下游大学任务有益,并避免从头开始训练新的模型。那么,此类预训练的模型可以应用于多模式任务吗?研究人员探索了这个问题并取得了重大进展。本文调查了视觉预训练(VLP)的最新进展和新的前沿,包括图像文本和视频文本预训练。为了使读者更好地掌握VLP,我们首先从五个方面回顾了其最新进展:功能提取,模型体系结构,培训预训练目标,预训练数据集和下游任务。然后,我们详细概述了特定的VLP模型。最后,我们讨论了VLP中的新边界。据我们所知,这是对VLP的首次调查。我们希望这项调查能够阐明VLP领域的未来研究。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译
The visual dimension of cities has been a fundamental subject in urban studies, since the pioneering work of scholars such as Sitte, Lynch, Arnheim, and Jacobs. Several decades later, big data and artificial intelligence (AI) are revolutionizing how people move, sense, and interact with cities. This paper reviews the literature on the appearance and function of cities to illustrate how visual information has been used to understand them. A conceptual framework, Urban Visual Intelligence, is introduced to systematically elaborate on how new image data sources and AI techniques are reshaping the way researchers perceive and measure cities, enabling the study of the physical environment and its interactions with socioeconomic environments at various scales. The paper argues that these new approaches enable researchers to revisit the classic urban theories and themes, and potentially help cities create environments that are more in line with human behaviors and aspirations in the digital age.
translated by 谷歌翻译